speech, nlp, paper,

Sooftware NLP - Textless NLP

Soohwan Kim
Co-founder/A.I. engineer at TUNiB.
More posts by Soohwan Kim.

Soohwan Kim

19 Sep 2021•4 min read

Sooftware NLP - Textless NLP

Textless NLP: Generating expressive speech from raw audio

paper / code / pre-train model / blog
Name: Generative Spoken Language Model (GSLM)

Intro

BERT, RoBERTa, GPT-3 등 최근 몇 년간 텍스트에 집중된 NLP 모델들이 발전되어 왔음.
이건 분명한 한계다. 텍스트에 대한 디펜던시를 깨야한다.
언어 == 문자가 아니다. speech가 있다.
그래서 우리 GSLM이 텍스트에 대한 디펜던시를 깰 수 있는 가능성을 보였다.
음성 프롬프트 시대의 시작을 알린다.
음성을 프롬프트로 주면 뒤이어서 인공지능이 말을 계속 이어서 말하는 모델의 등장!

Background

음성을 입력으로 하는 NLP 어플리케이션들은 ASR => NLP를 거쳐야 했음.
ASR의 정확도가 100%가 아니기 때문에 분명한 정보의 오류가 존재함.
우리는 여기서 ASR + NLP 구조가 아닌 Speech to Speech로 간다.
Text나 label 없이 only 음성만으로 학습한다.

Textless NLP’s benefits

언어 상관없이 학습이 가능해질 가능성이 높아짐
텍스트로 표현이 안되는 말의 뉘앙스, 감정 등의 정보를 반영할 수 있음
텍스트 레이블링 혹은 ASR 학습 없이 모델을 학습할 수 있음
유아들이 어떻게 언어를 배우고 말을 시작하는지를 알 수 있다(? 과연?)
처음으로 텍스트 없이 audio to audio 번역 시스템이 가능해졌다!

Data

6,000시간의 Libri-Light와 LibriSpeech 데이터셋 (인코더 학습)
LibriSpeech and LJSpeech (디코더(TTS System) 학습)

Model

Encoder (S2u)
- Speech를 인풋으로 받아서 discrete unit(pseudo-text라고 부름)으로 인코딩
- unit은 k-means clustering으로 나눔.
- 인코더로는 CPC, wav2vec 2.0, HuBERT를 사용 (좋은 acoustic encoder들이라고 보시면 됨)
uLM
- unit sequence를 생성
Decoder (u2S)
- TTS System (Tacotron2 사용)
여기서 unit(pseudo-text)은 letter or phoneme과 매핑되지는 않음.
100 이상의 유닛일 때 좋은 성능을 보였으며 unit은 보통 음소보다 짧은 단위를 인코딩했음.

생성한 음성은 pre-trained ASR 모델로 인식해서 성능 측정
Pre-trained LM으로 텍스트 성능 측정

Result

Unit의 수가 모델 성능에 큰 영향을 미침.
Unit 수가 커질수록 Acoustic의 성능은 좋아졌음. (PER이 낮아졌다)
LM 점수도 비슷한 경향이었으나, 너무 많은 unit을 사용하면 오히려 안 좋았음. (NLP에서 vocab의 적당한 사이즈가 좋은 이유와 비슷한 것 같음)
어떤 인코더 모델이냐에 따라 다른 결과가 나옴. HuBERT 성능이 가장 좋았음.
이렇게 자동으로 측정한 성능이 사람이 평가했을 때와 correlation이 높았음. (좋은 성능 지표)

Subscribe to SOOFTWARE

Get the latest posts delivered right to your inbox

More in speech

Sooftware Speech - 한국어 Tacotron2
10 Oct 2021 - min read
Sooftware Speech - Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Paper Review
17 Mar 2021 - min read
PORORO Text-To-Speech (TTS)
16 Feb 2021 - min read

TUNiB Electra 공개 cover image

TUNiB Electra 공개 cover image

huggingface, nlp, record,

TUNiB Electra 공개

이번에 저희 튜닙에서 공들여 만든 TUNiB Electra 모델을 공개했습니다 !! 🎉 🎉 이번 공개에서는 한-영 bilingual 모델과 한국어 모델을 각각 Small/Base 사이즈로 공개했으며, HuggingFace transformers…

React 기반 개인 웹페이지 배포하기 (gatsby) cover image

React 기반 개인 웹페이지 배포하기 (gatsby) cover image

React 기반 개인 웹페이지 배포하기 (gatsby)

React 기반 개인 웹페이지 배포하기 이번 글에서는 react…